Bert在文本分类任务中取得了显着的结果,但尚未完全利用它,因为仅将最后一层用作下游分类器的表示输出。关于伯特学到的语言特征性质的最新研究表明,不同的层集中在不同种类的语言特征上。我们提出了一个CNN增强的变压器编码器模型,该模型在固定的bert $ [cls] $顶部进行了训练,来自所有层的表示,采用卷积神经网络来生成变压器编码器内的QKV功能映射,而不是线性的输入投影,进入嵌入空间。 CNN-Trans-enc相对较小,因为下游分类器,并且不需要对Bert进行任何微调,因为它可以确保从所有层中的$ [CLS] $表示的最佳使用,从而利用具有更有意义,更有意义,更有意义,更有意义的语言功能和输入的可推广QKV表示。将BERT与CNN-Trans-enc一起使用$ 98.9 \%$和$ 94.8 \%\%$ $ $ $ $ -5,$ 82.23 $($ 8.9 \%$改善),在亚马逊极性上,$ 0.98 \%$($ 0.2 \%$改进)(来自两个数据集的100万个样本子集的K倍交叉验证)。在AG新闻数据集中,CNN-Trans-enc在当前最新的$ 99.94 \%$中,并在DBPEDIA-14上获得了新的最高绩效,平均准确性为99.51美元\%$。索引术语:文本分类,自然语言处理,卷积神经网络,变压器,伯特
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
Dascim(数据科学和采矿)在Ecole Polytechnique的Lix的一部分,于2013年成立,从那时起,通过机器和深度学习方法生产大规模数据分析领域。本集团在NLP领域专门积极活跃,并在方法论和资源水平上具有有趣的结果。在此遵循我们对AFIA社区的不同贡献。
translated by 谷歌翻译
我们将增强件应用于我们的数据集以增强我们预测的质量,并使我们的最终模型更具弹性,以嘈杂的数据和域漂移。然而,问题仍然存在,这些增强如何使用不同的超参数进行?在这项研究中,我们通过在应用于机器学习模型的不同增强时,通过执行当地代理(石灰)解释来评估模型的超参数的增强和影响。我们利用了用于称重每个增强的线性回归系数。我们的研究证明,有一些增强对超参数和其他更具弹性和可靠的其他增强。
translated by 谷歌翻译